Sự phát triển của các kiến trúc MLLM
Sự phát triển của các Mô hình Ngôn ngữ Lớn Đa cảm biến (MLLMs) đánh dấu sự chuyển dịch từ những khu vực riêng biệt theo từng loại cảm giác sang Không gian Biểu diễn Tổng hợp, nơi các tín hiệu phi văn bản (hình ảnh, âm thanh, 3D) được chuyển đổi thành ngôn ngữ mà mô hình LLM có thể hiểu.
1. Từ thị giác đến đa cảm giác
- Các MLLM sơ khai:Chủ yếu tập trung vào các Mô hình Biến đổi Thị giác (ViT) cho các tác vụ hình ảnh - văn bản.
- Các kiến trúc hiện đại:Tích hợp âm thanh (ví dụ: HuBERT, Whisper) và đám mây điểm 3D (ví dụ: Point-BERT) để đạt được trí tuệ chéo cảm giác thực sự.
2. Cầu nối Chiếu xạ
Để kết nối các loại cảm giác khác nhau với mô hình LLM, một cầu nối toán học là cần thiết:
- Chiếu xạ tuyến tính:Một phép ánh xạ đơn giản được dùng trong các mô hình đầu tiên như MiniGPT-4.
$$X_{llm} = W \cdot X_{modality} + b$$ - MLP nhiều lớp:Một phương pháp hai lớp (ví dụ: LLaVA-1.5) cung cấp sự đồng nhất vượt trội cho các đặc trưng phức tạp thông qua các phép biến đổi phi tuyến tính.
- Người điều chỉnh lại mẫu / Người trừu tượng hóa:Những công cụ tiên tiến như Perceiver Resampler (Flamingo) hoặc Q-Former giúp nén dữ liệu chiều cao thành các token có độ dài cố định.
3. Chiến lược Giải mã
- Token rời rạc:Biểu diễn đầu ra dưới dạng các mục từ điển cụ thể (ví dụ: VideoPoet).
- Nhúng liên tục:Sử dụng các tín hiệu "mềm" để hướng dẫn các bộ sinh sản chuyên dụng phía sau (ví dụ: NExT-GPT).
Quy tắc Chiếu xạ
Để một mô hình LLM xử lý một âm thanh hay một vật thể 3D, tín hiệu phải được chiếu vào không gian ngữ nghĩa hiện có của mô hình LLM, để nó được hiểu là một "tín hiệu cảm giác" chứ không phải nhiễu.
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?
Question 2
What is the primary role of ImageBind or LanguageBind in this architecture?
Challenge: Designing an Any-to-Any System
Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.
You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.
Step 1
Select the correct encoder for the input signal.
Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Step 2
Apply a Projection Layer.
Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Step 3
Generate and Decode the output.
Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.